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HE: ” 当 标 注 数 据 较 少时 ， 现 有 模型 受训 练 数据 量 少 的 限制 ， 参 数 没有 拟 合 到 预期 效果 ， 导 致 在 低 资源 命名 实体 识别 任务 
中 模型 识别 性 能 不 佳 。 本 文通 过 采用 折 交 叉 验 证 法 ， 使 模型 较 好 拟 合 数据 。 此 外 ， 本 文 在 BiLSTM-CRF 模型 基础 上 融合 多 层 字 符 
特征 信息 和 自 注 意 力 机 制 , 结合 kK 折 交 叉 验证 法 , 构建 了 CharBiLSTM-Att-CRF 模型 。 本 文 提出 的 CharBiLSTM-Att-CRF 模型 在 20% 
的 CONLL2003 和 20% 的 BC5CDR 的 数据 集 上 ，F1 值 在 BiLSTM-CRF 模型 基础 上 分 别提 升 了 7. 00%、4. 08%。 该 模型 能 较 好 地 适应 低 资 
源 命名 实体 识别 任务 。 
关键 词 : 低 资源 命名 实体 识别 ; 神经 网 络 ;kK 折 交 叉 验 证 法 ; 自 注 意 力 机 制 
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CharBiLSTM-Att-BCRF Model for Low Resource 
Named Entity Recognition 


Zhong Maosheng, Wu Jiahua 


School of computer information engineering, Jiangxi Normal University 


Abstract: when there are few labeled data, the existing models are limited by the amount of training data, and the parameters do not 
fit the expected effect, resulting in poor model recognition performance in the task of low resource named entity recognition. a new loss 
function integrated with Bernoulli distribution is proposed to make the model fit the data better. In addition, based on the BiLSTM-CRF 
model, this paper integrates multi-layer character feature information and self attention mechanism, and the new loss function based on 
Bernoulli distribution is combined to construct the BiLSTM-Att-BCRF model. Based on the dataset of 20% CONLL2003 and 20% 
BCSCDR, the Fl value of the BILSTM-BCRF model proposed in this paper increased by 7.00% and 4.08% respectively. the model can 
better adapt to the task of low resource named entity recognition. 


Keywords: Low resource named entity recognition; Neural network; Bernoulli distribution; self attention mechanism 


1 引言 

命名 实体 识别 是 自然 语言 处 理 的 基础 任务 之 一 ， 该 任务 则 在 从 非 结 构 化 的 文本 中 自动 识别 出 实体 ， 并 将 其 
标记 为 预定 义 的 类 别 ， 例 如 和 人 名、 地 名 和 组 织 机 构 名 等 。 例 如 ，“ 张 无 咏 ， 金 庸 武侠 小 说 《倚天 屠龙记 》 人 物 
角色 ， 中 土 明教 第 三 十 四 代 教 主 。” 这 人 句 话 包含 的 实体 有 : 人 名 实体 “张无忌 ， 金 良 ”， 书 名 实体 “倚天 屠 龙 
id", 门派 实体 “明教 ”。 由 此 可 见 , 实体 识别 是 文本 语义 理解 的 基础 。 同 时 命名 实体 识别 技术 在 知识 图 谱 构 建 、 
机 器 翻译 、 知 识 库 构建 等 多 种 自然 语言 处 理 任 务 中 有 着 广泛 应 用 。 

近 些 年 来 , 深度 学 习 方 法 被 广泛 用 于 命名 实体 识别 ,如 Hammerton" 将 长 短期 记忆 网 络 (LSTM) 应 用 到 实体 识 
别 研究 中 ，LSTM-CRF 结构 成 为 实体 识别 的 基础 结构 。Lample ŽEAPIZE LSTM-CRF 模型 的 基础 上 ， 提 出 双向 长 短 
期 记忆 网 络 (Bi-LSTM) 和 条 件 随机 场 (CRE) 结合 的 模型 B3 等 。 这 类 方法 虽然 在 文本 实体 识别 任务 中 表现 优异 ， 
但 是 需要 大 规模 的 标注 数据 ， 对 训练 语 料 中 每 个 词 进行 人 工 标注 。 在 标注 数据 不 足 的 情况 下 ， 现 有 模型 的 参数 
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不 能 较 好 拟 合 ， 导 致 模型 预测 最 大 概率 标签 并 不 一 定 是 真实 标签 ， 模 型 的 识别 性 能 下 降 ， 很 难 应 用 到 如 生物 、 
医学 这 些 标注 语 料 较 少 的 领域 。 针 对 上 述 问题 , 本 文通 过 采用 折 交 叉 验 证 法 , 使 模型 参数 在 低 资 源 场 景 下 能 较 
好 拟 合 。 在 此 基础 上 ， 为 增加 模型 能 处 理 的 词汇 量 和 提升 模型 识别 罕见 词 的 能 力 ， 本 文 在 BiLSTM-CRF 模型 基础 
上 融合 多 层 字符 特征 信息 , 构建 了 CharBiLSTM-CRF 模型 。 在 CharBiLSTM-CRF 模型 基础 上 融合 了 自 注意 力 机 制 ， 
获取 关键 信息 隐藏 状态 表示 ， 构 建 了 CharBiLSTM-Att-CRF 模型 , 进一步 提升 了 模型 的 精确 率 和 召回 率 。 

本 文 的 组 织 结构 为 : 第 二 节 介 绍 低 资 源 命名 实体 识别 领域 的 主要 工作 。 第 三 节 介绍 本 文 模型 ， 包括: 输入 
屋 、BiLSTM 层 、 自 注意 力 层 和 CRF 层 。 第 四 节 介 绍 实验 数据 、 实 验 内 容 、 实 验 结果 及 分 析 。 最 后 对 本 文 工 作 进 
行 总 结 
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命名 实体 识别 的 研究 方法 主要 有 基于 规则 和 词典 方法 、 机 器 学 习 方法 、 深 度 学 习 方 法 等 。 基 于 词典 和 规 

则 的 方法 过 多 依赖 于 语言 学 家 制定 的 规则 模板 ， 容易 产 生 错 误 , 移植 性 差 。 传 统 机 器 学 习 方 法 主要 包括 : 隐 马 尔 
可 夫 模 型 (Hidden Markov Model, HMM) < #&A§ (Maximum Entropy, ME)! , RASS /K A RW (Maximum Entropy 
Markov Model, MEMM) 7! 、 条 件 随机 场 ( Conditional Random Fields, CRF) 世 等 。 这 些 传统 的 机 器 学 习 方 法 在 特 
征 提 取 方 面 需 要 人 工 参 与 ， 同 时 需要 大 规模 的 标注 语 料 来 训练 模型 ， 方 法 的 性 能 主要 依赖 于 所 采用 的 特征 是 否 
具有 辨识 度 。 其 中 CRF 被 看 作 是 命名 实体 识别 的 主流 模型 , 优点 在 于 在 对 一 个 位 置 进行 标注 的 过 程 中 CRF 可 以 利 
用 内 部 及 上 下 文 特征 信息 。 随 着 深度 学 习 的 不 断 发 展 , 命名 实体 识别 的 研究 重点 已 转向 深层 神经 网 络 ， 
Collobert 等 学 者 和 首次 提出 基于 神经 网 络 的 命名 实体 识别 方法 , 该 方法 中 每 个 单词 具有 固定 大 小 的 窗口 , 但 未 
能 考虑 长 尾 问 题 。 为 了 充 服 这 一 限制 , Chiu # NicholsIo 提 出 一 种 双向 LSTM-CNNs 架构 , 该 架构 可 自动 检测 单词 
和 字符 级 别 的 特征 。Hammerton 利用 CRF 关注 上 下 文 特征 信息 的 特点 ， 提 出 LSTM-CRF 模型 。 
近 些 年 来 , 大 量 的 深度 学 习 方 法 被 应 用 于 低 资 源 命名 实体 识别 任务 中 , 低 资 源 的 命名 实体 识别 技术 成 为 当前 
研究 热点 之 一 ， 其 性 能 的 提高 是 命名 实体 识别 技术 走向 广泛 实际 应 用 的 前 担 。 相 关 研 究 工作 可 大 致 分 为 以 下 几 
类 :” 跨 语言 迁移 的 方法 、 数 据 增强 的 方法 、 集 成 自动 标注 语 料 的 方法 和 其 他 方法 。 

跨 语 言 迁移 方法 的 基本 思路 是 利用 资源 丰富 语言 的 标注 数据 帮助 低 资 源 语 言 进 行 命名 实体 识别 , 可 大 致 分 
为 数据 迁移 的 方法 和 模型 迁移 的 方法 两 大 类 。 基 于 数据 迁移 的 方法 通常 借助 文本 翻译 和 标签 映射 等 手段 把 源 语 
言 中 的 标注 数据 转换 成 目标 语言 的 标注 数据 ， 然 后 基于 这 些 数据 训练 模型 。Ni 等 中 提出 了 在 语料库 上 进行 
标签 映射 的 方法 ， 用 于 创建 自动 标记 的 目标 语言 数据 。Mayhew 等 02] 利 用 双语 词典 ， 使 用 一 种 类 似 短语 机 器 翻译 
53] 的 方法 自动 翻译 源 语言 的 标注 文本 。 基 于 模型 迁移 的 方法 通常 先 学 习 语言 无 关 的 特征 ， 然 后 在 源 语言 的 标注 
语 料 上 训练 NER 模型 直接 用 于 目标 语言 。Chen 等 叱 同样 基于 对 抗 学 习 的 方法 提取 语言 无 关 的 特征 ， 并 动态 地 计 
算 源 语言 和 目标 语言 之 间 的 相似 度 ， 从 而 更 有 效 地 实现 从 多 个 源 语言 到 目标 语言 的 知识 迁移 。Keung 等 05 在 多 
语言 版 本 BERT 的 基础 上 进一步 使 用 对 抗 学 习 09 的 方法 ， 以 学 习 更 好 的 与 语言 无 关 的 特征 。 
< 数据 增强 方法 的 主要 目标 是 , 在 不 增加 入 工 标注 成 本 的 前 提 下 , 通过 增加 合理 的 噪声 来 提升 模型 的 鲁 棒 性 ， 
〇 ”在 少数 据 量 的 场景 下 对 模型 性 能 的 提升 有 很 大 帮助 。Dai 等 01 引 入 了 一 些 词 替 换 的 随机 操作 来 增加 训练 语 料 多 
样 性 ;Chen 等 08 在 半 监 督 NER 任务 中 引入 了 基于 局 部 可 加 性 的 数据 增强 。 基 于 语言 迁移 的 方法 和 数据 增强 的 方 
法 虽然 能 够 有 效 地 缓解 标注 语 料 短 缺 的 问题 ， 但 是 具有 丰富 标注 资源 的 语言 是 非常 少 的 。 
一 些 研究 者 提出 集成 自动 标注 语 料 的 方法 ， 首 先 通过 某 种 方法 自动 标注 大 量 语 料 ， 然 后 集成 它们 用 于 提高 
低 资源 实体 识别 模型 的 性 能 。Yang 等 9 首先 基于 词典 匹配 的 方法 自动 标注 语 料 ， 然 后 使 用 Partial-CRFP?9 在 少 
量 人 工 标 注 的 语 料 和 大 量 自动 标注 的 语 料 上 训练 实体 识别 模型 。 此 外 , 他 们 还 基于 强化 学 习 P 训 练 一 个 选择 器 ， 
用 于 第 选 掉 有 具有 噪声 的 标注 数据 。 

除 上 述 三 类 方法 外 ， 低 资源 实体 识别 领域 还 有 其 他 方法 如 Zhang 提出 渐进 式 知识 提炼 方法 PDALNM2I, AK 
的 将 高 资源 域 适应 于 低 资源 目标 域 。Chen 提出 了 一 种 低 资 源 的 语言 模型 的 微调 方法 3 使 用 基于 注意 力 机 制 的 
微调 策略 ， 从 预 训练 的 语言 模型 中 选择 相关 的 语义 和 人 句法 信息 ， 将 其 应 用 于 命名 实体 识别 任务 。 本 文 的 工作 主 
要 是 探索 低 资 源 条 件 下 基于 深度 学 习 的 命名 实体 识别 方法 。 


3 模型 
3. 1 基本 架构 
命名 实体 识别 任务 被 看 作 是 序列 标注 问题 。 输 入 句子 表示 为 X= (x Lx 2,…,Xx i ), 其 中 x i 


= 


表示 第 i 个 字符 (包括 数字 、 单 词 、 字 母 或 标点 符号 等 ) 。 输 出 标注 序列 为 Y= (y Ly aey i ), 其 中 
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y Í E{B,ME, S, O} Æx | 的 标签 ,B、M、E、S All 0 分别 代表 实体 首 字 , 实体 中 间 字 , 实体 结尾 字 , 实体 单 


独 字 和 非 实体 。 命 名 实体 识别 就 是 对 每 个 字符 进行 B、M、E、S、0 的 分 类 标注 。 

本 文通 过 采用 折 交 叉 验 证 法 ， 使 模型 参数 在 低 资源 场景 下 能 较 好 拟 合 ， 同 时 为 增加 模型 能 处 理 的 词汇 量 
和 提升 模型 识别 罕见 词 的 能 力 ， 将 多 层 字 符 信 息 融 合 到 BiLSTM-CRF 模型 ， 构 建 了 CharBiLSTM-CRF 模型 。 在 
CharBiLSTM-CRF 模型 基础 上 ， 融 合 自 注意 力 机 制 ， 获 取 关 键 信 息 隐 藏 状态 表示 ， 构 建 了 CharBiLSTM-Att-CRF 
模型 。CharBiLSTM-Att-CRF 模型 基本 结构 如 图 1 所 示 。 该 模型 结构 主要 分 为 输入 层 、Bi-LSTM 层 、 自 注意 力 层 


和 CRF 层 。 
qf 
自 注意 力 层 
BiLSTM 层 
输入 层 
图 1 CharBiLSTM-Att-CRF 模型 基本 结构 
Figure | basic structure of CharBiLSTM-Att-CRF model 
3.2 输入 层 
如 图 2 所 示 ， 该 图 为 模型 输入 层 的 结构 图 。 其 中 ，x 表示 词 向 量 ， 是 使 用 Pennington 等 人 提出 Glove 英文 

词 向 量 史 文件 生成 的 ,Cc 1,0. > 表示 字符 ;m, m 1 表示 由 BiLSTM 训练 生成 的 字符 向 量 ,x = [X 3m 


3 
与 字符 向 量 拼接 输入 到 BiLSTM 层 。 


pall 


;m il REKHA 


h e h e 


图 2 模型 输入 层 基 本 结构 图 
Fig. 2 basic structure of model input layer 


3.3 BiLSTM E 
LSTM 神经 网 络 在 命名 实体 识别 任务 中 表现 出 良好 的 建 模 能 力 ， 能 较 好 的 学 习 文 本 中 单词 与 字符 的 特征 信息 ， 
BiLSTM 层 结构 主要 由 两 个 LSTM 组 合 而 成 。LSTM 的 网 络 结构 主要 分 三 个 阶段 :遗忘 阶段 、 选 择 记 忆 阶 段 、 输 出 


阶段 。LSTM 单元 结构 如 图 3 所 示 , i, foa 0 ; 分 别 表示 LSTM 单元 中 
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图 3 LSTM 单元 结构 图 
Figure 3 structure diagram of LSTM unit 


的 输入 门 、 遗 忘 门 、 输 出 门 在 t 时 刻 的 状 图 态 。h，。 RRE t-1 时 刻 的 隐藏 状态 , C , 
胞 记忆 状态 。o 表示 Sigmoid，tanh 表示 双 曲 正切 激励 函数 , 如 式 (1) 一 式 (6) BTA: 


i, =0 (W ,, x , +W Ai 


c  =0 (W ,nh atW ox x > +b 。) 
c + Sf C a ati 4 © 4 
o , =0 (W on X FW, 


h =o , Ota 


表示 在 t 时 刻 的 细 


A, a+b ; ) 
(1) 
x +b r) 
(2) 
(3) 
(4) 
hhe atb 。) 
(5) 
n h(c , ) 
(6) 

上 和 后 向 输出 。 


BiLSTM 神经 网 络 中 的 输出 隐藏 状态 h。 = [PR ch, Lh, fh, 分 别 为 前 向 输 


3.4 自 注意 力 层 


自 注意 力 层 的 功能 是 给 予 上 下 文 的 局 部 信息 , 使 模型 加 强 对 重要 信息 的 捕捉 , 减少 非 必要 信息 的 噪声 影响 。 


将 重点 放 在 序列 的 特定 部 分 ， 同 时 不 丢弃 编码 器 状态 的 中 间 值 ， 而 是 利用 它 生 成 上 下 文 向 量 ， 以 便 解码 器 给 出 


输出 结果 ， 自 注意 力 机 制 公式 如 式 〈7) Aras: 


H = softmax(W 2 tanh (W ih, )) 


(7) 


EH, W W > 为 权重 参数 ，h， 是 BiLSTM 层 输出 的 隐藏 状态 。 


3.5 CRF 层 

模型 解码 层 主要 是 条 件 随 机 场 (Conditional Random Field , CRF). CRF 是 由 状态 特征 函数 和 状态 特征 转 
移 函 数组 成 ， 状 态 特征 函数 也 称 发 射 概率 ， 状 态 特征 转移 函数 在 模型 中 可 以 用 一 个 状态 转移 矩阵 表示 ， 最 后 得 
到 的 条 件 概率 如 式 (8) 所 示 : 


exp (w :P(x „y ) 


p ty IX )-5 Exp (w Ox vy D 
(8) 


其 中 ，@(x,y) 是 x 和 y 一 组 特征 向 量 的 映射 。p(ylx) 表 示 模型 在 给 定 文本 序列 x 条 件 下 得 到 标签 序列 y 
的 概率 。 损 失 函 数 计算 公式 如 式 (9) 所 示 : 


L(w,x)=->, log p(ylx © ?,w) 
(9) 
CRE 方法 的 优点 是 可 以 进一步 考虑 序列 标签 的 依赖 关系 ,同时 在 训练 过 程 中 , 采用 Viterbi 算法 用 于 最 大 似 
然 估 计 ， 使 模型 对 输入 文本 预测 出 标签 的 最 大 概率 如 式 (10) 所 示 : 


y =argmax „P y lx © Dw ) 


(10) 


EH, y ”表示 模型 预测 标签 的 最 大 概率 。 但 是 在 低 资源 的 场景 下 ， 模 型 受 标注 数据 量 少 的 限制 ， 参 数 没 


有 拟 合 到 预期 效果 , 输出 预测 概率 最 大 的 标签 序列 并 不 一 定 是 真实 的 标签 序列 ,导致 模型 最 后 的 识别 性 能 下 降 。 
在 此 ， 本 文 借鉴 jie 等 人 鸣 在 不 完全 标注 实体 识别 任务 上 采用 交叉 验证 方式 训练 数据 的 思想 ， 采 用 下 折 交 叉 验 
证 法 训练 模型 ， 使 模型 参数 在 低 资源 场景 下 也 能 较 好 地 拟 合 。 


K 折 交 叉 验 证 法 ， 就 是 将 训练 集 D ={D 1, D 2 D 】} 分 为 K 份 ， 每 次 训练 时 将 其 中 区-1) 份 做 


为 训练 集 ， 剩 余 的 1 份 做 为 验证 集 。 将 K 份 训练 样本 进行 交叉 训练 和 验证 ， 可 以 有 效 地 防止 低 资源 场景 下 模型 
参数 过 拟 合 。 本 文 经 实验 得 知 ， 当 下 值 为 2 时 模型 识别 效果 较 好 。 采 用 2 折 交 叉 验 证 法 训练 模型 ， 在 训练 样本 
只 有 少量 时 ， 模 型 参数 能 较 好 拟 合 ， 提 升 模型 的 精确 率 和 召回 率 ， 最 后 提高 模型 的 识别 效果 。 


4 实验 


4. 1 数据 集 及 评价 指标 

本 文选 择 CONLL2003P9 数 据 集 和 BC5CDRP?7 数 据 集 来 证 明 所 提出 模型 的 有 效 性 。CONLL2003 数据 集 包含 4 种 
实体 类 型 以 及 英语 和 德语 两 种 语言 ，BC5CDR 数据 集 包 含 两 种 实体 和 1500 篇 医药 文章 。 由 于 实体 识别 的 任务 主 
要 是 对 实体 的 边界 和 类 别 的 识别 ， 只 有 当 边 界 及 实体 的 类 别 都 识别 正确 时 ， 才 判断 正确 。 本 文通 过 使 用 精确 率 
(Precision) 和 召回 率 (Recall) RR F1 值 ， 用 于 衡量 该 模型 的 性 能 ， 如 式 (13) ~ 式 (15) 所 示 : 


i M 
Precision = 一 一 


N 

(13) 

M 

Recall = — 

(14) 

F eS xRecall x 100% 


Precision +Recall 


(15) 
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其 中 N 表 示 为 模型 所 预测 出 的 实体 总 数 , M RRRA N SKA PIE 


预测 实体 的 总 数 , K 表示 为 数据 集中 


所 标注 的 实体 总 数 。 模 型 中 超 参数 设置 如 表 1 所 示 : 


4. 2 实验 结果 与 分 析 


#1 超 参数 设置 


Table 1 super parameter setting 


参数 值 
隐 层 向 量 维度 200 
词 向 量 维度 100 

字符 向 量 维度 50 
Dropout 0.5 
学 习 率 0.1 

批 尺寸 10 
训练 轮 数 100 
L2 正则 化 le-8 


本 文 所 做 的 实验 采用 的 数据 集 主 要 是 CONLL-2003 英语 数据 集 和 BCSCDR 专业 医学 领域 数据 集 ， 
CharBiLSTM-Att-CRF 模型 、CharBiLSTM-CRF 模型 与 BiLSTM-CRF 模型 实验 结果 如 图 4、 图 5 所 示 : 
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66 
64 


F1 值 


91 
90 
89 
88 
87 
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85 
84 
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82 
81 
80 


F1 值 


model on BCSCDR dataset 


7327 73.71 
74-87 一 一 BiLSTM-CRF 


69.92 CharBiLSTM-CRF 
— CharBiLSTM-AH-CRF 
0.2 0.3 0.5 0.7 


图 4 BC5CDR 数据 集 上 CharBiLSTM-Att-CRF 模型 、CharBiLSTM-CRF 模型 与 BiLSTM-CRF 模型 实验 结果 对 比 
Fig. 4 Comparison of experimental results between CharBiLSTM-Att-CRF model CharBiLSTM-CRF model and BiLSTM-CRF 


89.84 28 
89.32 

88.3 89.78 90.27 
89.24 

88.06 86.08 


———BiLSTM-CRF 
CharBiLSTM-CRF 
CharBiLSTM-Att-CRF 


0.2 0.3 0.5 0.7 


图 5 CONLL2003 数据 集 上 CharBiLSTM-Att-CRF 模型 、CharBiLSTM-CRF 模型 与 BiLSTM-CRF 模型 实验 结果 对 比 


Fig. 5 Comparison of experimental results between CharBiLSTM-Att-CRF model CharBiLSTM-CRF model and BiLSTM-CRF 


model on CONLL2003 dataset 


从 图 4、 图 5 中 可 以 看 出 该 模型 在 少量 标注 数据 集 上 的 性 
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F BiLSTM-CRF 模型 ， 比 较 适 合 低 资源 领域 


的 实体 识别 任务 。 同 时 该 模型 在 20% 的 CONLL2003 数据 集 上 F1 值 达到 了 88. 30%, 说 明 该 模型 在 不 需要 大 量 的 标 
注 语 料 的 情况 下 ， 也 能 取得 比较 好 的 识别 效果 。 


TMN 是 Lin 等 人 Ps 在 2020 年 提出 


ra 


! 基 于 实体 和 触发 词 标注 
A FE 2022 年 提出 的 一 种 基于 对 偶 学 习 和 触发 词 标注 的 命名 实 
DualNER 模型 、TMN 模型 实验 结果 对 比如 表 2、 表 3 所 示 。 


的 命名 实体 识别 模型 。 
本 识别 模型 。CharBiLSTM-Att-CRF 模型 与 


表 2 CharBiLSTM-Att-CRF 模型 与 其 他 模型 实验 结果 对 比 
Table 2 Comparison of experimental results between CharBiLSTM-Att-CRF model and other models 


DualNER 是 Zhong 等 


20%CONLL2003 
Precision Recall Fl 
BiLSTM-CRF 82. 17 80. 35 81. 30 
TMN 85. 65 85. 38 85. 51 
Dua INER 86. 55 86. 69 86. 62 
CharBiLSTM-CRF 87. 49 88. 63 88. 06 
CharBiLSTM-Att-CRF 88. 28 88. 31 88. 30 


如 表 2 所 示 ， 该 实验 是 在 20% 的 CONLL-2003 数据 集 上 进行 的 。 从 表 中 可 以 看 出 CharBiLSTM-Att-CRP 模型 


Fl 值 是 高 于 DualNER 模型 和 TMN 模型 的 。 


表 3 CharBiLSTM-Att-CRF 模型 与 


他 模型 实验 结果 对 比 


Table 3 Comparison of experimental results between CharBiLSTM-Att-CRF model and other models 


20%BC5CDR 
Precision Recall F1 
BiLSTM-CRF 79. 09 62. 66 69. 92 
TMN 74. 30 72.44 73. 36 
Dua INER 76. 06 73. 66 74. 84 
CharBiLSTM-CRF 74. 35 72.22 73.27 
CharBiLSTM-Att-CRF 75.45 72. 60 74. 00 


如 表 3 Brass 在 20% 的 BCSCDR 数据 集 上 ，CharBiLSTM-Att-CRF {R7 
模型 低 0. 84%， 主 要 是 该 模型 识别 一 些 专 有 名 i 
并 不 需要 标注 触发 词 ， 它 所 需要 的 人 工 成 本 只 是 TMN 模型 和 DualNER 模型 的 3/4， 同 时 CharBiLSTM-Att-CRF 模 
型 在 CONLL2003 数据 集 上 F1 值 比 DualNER 模型 高 1. 68%。 当 然 ， 如 何 提高 CharBiLSTM-Att-CRF 模型 识别 专 有 


名 词 的 性 能 ， 也 是 本 文 后 续 工作 的 重点 。 


4. 3 词 与 多 层 字 符 信息 的 融合 分 析 


在 3. 2 节 中 本 文 提出 如 图 2 所 示 的 模型 输入 层 结构 ， 为 验 


体 识 别 的 性 能 ， 本 文 在 CharBiLSTM-CRF 模型 上 进行 如 下 实验 : 


FE 在 模型 输入 层 哪些 


Fl 值 比 TMN 模型 高 0. 64%， 比 DualNER 


司 的 性 能 略 低 于 DualNER 模型 。 但 是 ，CharBiLSTM-Att-CRF 模型 


因素 会 影响 模型 进行 命名 实 


表 4 词 向 量 与 字符 向 量 拼 接 顺 序 对 模型 性 能 的 影响 
Table 4 explores the impact of word vector and character vector splicing order on model performance 
20%BC5CDR 数据 集 
Method Precision Recall Fl 
word+char 71. 82 72. 50 72.16 
char+word 71. 23 73.07 72.14 
CharBiLSTM-CRF 74, 35 12.22 73.27 
(word+char*2) 
chartword+char 72. 25 71.73 71. 99 


表 4 中 的 实验 所 使 用 的 模型 为 CharBiLSTM-CRF 模型 ， 采 用 的 数据 集 为 20% 的 BC5CDR 数据 集 。 其 中 ，word 
表示 为 词 向 量 信息 ， 维 度 设置 为 100。char 表示 为 字符 向 量 ， 维 度 设 置 为 50; “char*2” 表 示 为 2 个 字符 向 量 
和 矩阵 拼接 ，“+” 表 示 拼 接 。 

为 探究 词 向 量 与 字符 向 量 拼接 顺序 是 否 会 影响 模型 的 性 能 ， 本 文 做 了 以 下 实验 ， 实 验 结果 如 表 4 所 示 : 在 
模型 输入 层 采 用 词 向 量 和 一 个 字符 向 量 和 矩阵 拼 接 时 , 将 它们 的 拼接 顺序 调换 , 模型 Fl 值 与 之 前 相 比 , 稍微 下 降 。 
当 词 向 量 与 两 个 字符 向 量 矩 阵 拼 接 时 ， 将 词 向 量 放 至 两 个 字符 向 量 矩 阵 中 间 时 ， 模 型 的 精确 率 、 召 回 率 、Fl 值 
与 之 前 相 比 都 有 所 下 降 。 由 此 可 知 ， 词 向 量 与 字符 向 量 的 拼接 顺序 是 会 影响 模型 的 性 能 的 

表 5 词 向 量 拼接 字符 向 量 矩 阵 的 个 数 对 模型 性 能 的 影响 


Table 5 explores the impact of the number of word vector stitching character vector matrices on the performance of the model 


` 


20%BC5CDR 数据 集 
Method Precision Recall Fl 

CharBiLSTM-CRF 74. 35 72. 22 73.27 
(word+char*2) 

word (200) +char+4 73. 12 73. 20 73. 16 
word (300) +char*6 70. 74 73. 87 72.27 
word(50) +char 70. 42 70. 70 70. 56 
word+char 71. 82 72. 50 72. 16 
word+char*3 71. 07 74. 21 72. 60 
(word+char*2) *2 73. 48 71.37 72.41 


X 5 中 的 实验 所 使 用 的 模型 为 CharBiLSTM-CRF 模型 ， 采 用 的 数据 集 为 20% 的 BC5CDR 数据 集 。 其 中 ，word 
表示 为 词 向 量 信息 ， 维 度 设 置 为 100。“word(200) ”表示 维度 为 200 的 词 向 量 ，char 表示 为 字符 向 量 ， 维 度 设 
置 为 50; “char*3” 表 示 为 3 个 字符 向 量 矩 阵 拼 接 ，“+” 表 示 拼 接 。 
在 低 资 源 场景 下 ， 模 型 受 标注 数据 量 少 的 限制 ， 通 过 在 词 向 量 后 拼接 字符 向 量 ， 可 以 提高 模型 处 理 罕 见 词 
的 能 力 ， 提 高 模型 的 识别 性 能 。 为 探究 拼接 字符 向 量 和 矩阵 数量 为 多 少时 ， 模 型 识别 性 能 提升 的 最 多 ， 本 文 做 了 
以 下 实验 ， 实 验 结果 如 表 5 所 示 : 首先 将 词 向 量 维度 设置 为 100 IN, HAAF eA. WAF EE 
阵 、 三 个 字符 向 量 时 和 矩阵， 通过 实验 结果 对 比 ， 本 文 发 现在 词 向 量 后 拼接 两 个 字符 向 量 和 矩阵 ， 模 型 识别 效果 最 
好 。 然 后 将 词 向 量 维度 设置 为 50、200、300 时 ， 后 拼接 不 同 数量 的 字符 向 量 和 矩阵。 通过 实验 结果 对 比 ， 本 文 发 
现 将 词 向 量 维度 设置 为 100， 拼 接 两 个 字符 向 量 矩 了 泗 ， 模 型 的 识别 性 能 提升 的 最 多 。 

4. 4 消融 实验 

为 探究 人 折 交 叉 验 证 法 和 多 层 字符 信息 以 及 自 注意 力 机 制 对 模型 性 能 的 影响 , 本 文 将 BiLSTM-CRF 模型 设置 
为 基准 模型 , 首先 采用 K 折 交叉 验证 法 训练 基准 模型 ,命名 为 CharBiLSTM-CRF (1) 模型 然后 在 CharBiLSTM-CRF (1) 
模型 基础 上 融合 多 层 字 符 信 息 ， 构 建 CharBiLSTM-CRF 模型 。 最 后 在 CharBiLSTM-CRF 模型 基础 上 融合 自 注 意 力 
机 制 ， 构 建 了 CharBiLSTM-Att-CRF 模型 。 以 上 模型 在 两 个 数据 集 的 实验 结果 如 表 6 所 示 : 

表 6 消融 实验 结果 
(BiLSTM-CRF 模型 为 基准 模型 ，CharBiLSTM-CRF (1) 模型 表示 采用 折 交 叉 验证 法 训练 模型 基准 ) 
Table 6 ablation experimental results 


(the BiLSTM-CRF model is the benchmark model, and the CharBiLSTM-CRF (1) model represents the training model using the k-fold 


U 


inf 


ži 


cross validation method) 


20%CONLL2003 20%BC5CDR 
Precision Recall Fl Precision Recall Fl 
BiLSTM-CRF 82. 17 80. 35 81.3 79. 09 62. 66 69. 92 
CharBiLSTM-CRF (1) 82.31 83. 23 82. 77 76. 53 65. 92 70. 83 
CharBiLSTM-CRF 87.49 88. 83 88. 06 74. 35 72. 22 T3: 21 


CharBiLSTM-Att-CRF 88. 28 88.31 88. 30 T5. 45 72. 60 74. 00 


表明 折 交 叉 验 证 法 和 多 
数据 集 取得 的 精确 率 、 召 


4.5 定性 分 析 
HE 

中 选取 两 个 实例 句子 : 

ft sells 

XT. #8 所 示 。 


song dra 
注 结果 如 


“Only France 


for almost $ 1700”， 人 工 标注 、BiLSTM-CRF 模型 和 CharBiLSTM-Att-CRF 模型 的 标 


表 6 所 示 的 消融 实验 结果 表明 , CharBiLSTM-CRF 模 
层 字 符 信 息 对 于 模型 的 性 能 具有 提升 的 作 月 
回 率 、F1 值 可 以 看 出 ， 本 文 所 


and Britain 


开 


B 


好 的 对 比 CharBiLSTM-Att-CRF 模型 与 BiLSTM-CRP {RELIE M A SEB BA 


backed Fischler ‘s 


XT 模型 识别 实例 1 


Table 7 model identification example 1 


E HJ CharBiLSTM-Att-CRF 模型 


J 在 两 个 数据 集 上 取得 的 Fl 值 均 高 于 BiLSTM-CRF 模型 ， 


日 。 从 表 中 模型 CharBiLSTM-Att-CRF 在 两 个 


J 识别 效果 是 比较 好 的 。 


E 务 上 的 差异 ， 本 文 从 数据 集 


proposal. ”和 “Rare Hendrix 


Only France and Britain backed Fischler ‘s proposal i 
人 工 标注 0  B-LOC 0  B-LOC 0 B-PER 0 0 0 
BiLSTM-CRF 0 B-LOC 0 B-LOC 0 0 0 0 0 
CharBiLSTM-Att-CRF 0 B-LOC 0 B-LOC 0 B-PER 0 0 0 
X 8 模型 识别 实例 2 
Table 8 model identification example 2 
Rare Hendrix song draft sells for almost $ 1700 
人 工 标注 0 B-PER 0 0 0 0 0 0 0 
BiLSTM-CRF B-PER I-PER 0 0 0 0 0 0 0 
BiLSTM-Att-BCRF 0 B-PER 0 0 0 0 0 0 0 
在 表 7 中 可 以 看 到 该 句子 共有 三 个 实体 ， 原 来 的 BiLSTM-CRP 模型 只 实 别 出 了 两 个 实体 ， 本 文 提出 的 


E/N 


CharBiLSTM-Att-CRF 模型 将 句 中 包含 的 三 个 实体 全 部 识别 出 来 。 表 8 中 ， 该 句子 只 有 一 个 人 名 实体 ， 但 
BiLSTM-CRF 模型 把 句子 中 前 两 个 单词 错误 地 识别 为 一 个 人 名 实体 , 而 本 文 提 出 的 模型 能 将 句 中 人 名 实体 准确 地 
识别 出 来 。 
5 总 结 


针对 低 资源 领域 标注 语 料 较 少 的 问题 ， 
(CharBiLSTM-Att-CRF) 。 该 模型 通过 采 月 
融合 到 模型 
能 更 好 的 适应 低 资 源 命名 实体 识 
的 工作 会 专注 于 提高 模型 识别 专 有 名 词 的 能 力 ， 同 时 模型 的 知识 迁移 和 跨 领 域 的 性 和 
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